智能论文笔记

Offense Detection in Dravidian Languages using Code-Mixing Index based Focal Loss

Debapriya Tula , Shreyas MS , Viswanatha Reddy , Pranjal Sahu , Sumanth Doddapaneni , Prathyush Potluri , Rohan Sukumaran , Parth Patwa

分类：自然语言处理 | 人工智能 | 机器学习

2021-11-12

在过去的十年中，我们看到了社交媒体平台推动的在线内容中的指数增长。该规模的数据生成具有难以克服的攻击内容的警告。通过多种方式（图像，语言等），代码混合语言等，通过使用识别冒犯内容的复杂性加剧了。此外，即使我们仔细采样和注释令人反感的内容，也将始终存在攻击性VS非冒犯内容的显着类别不平衡。在本文中，我们介绍了一种基于新的Code-Mixing指数（CMI）的焦点损失，其避免了两个挑战（1）代码混合语言（2）类别不平衡问题，用于Dravidian语言冒犯检测。我们还通过基于余弦的分类器更换传统的小点产品类分类器，这导致性能提升。此外，我们使用多语言模型，帮助传输特征在跨语言中学到的，以有效地使用低资源语言。同样重要的是要注意我们的模型处理混合脚本的实例（例如，说拉丁和Dravidian - 泰米尔脚本脚本的使用）也是如此。我们的模型可以在低资源，类别不平衡，多语言和代码混合设置中处理令人反感的语言检测。

translated by 谷歌翻译